
La presente invention concerne une m^thode de discretisation/groupage d'un 
attribut source ou d'un groupe attributs source d'une base de donnees contenant une 
population d'individus dans le but notamment de predire des modalites d'un attribut 
cible donne. L'invention trouve particulierement application dans F exploitation 
5 statistique des donnees, notamment dans le domaine de Fapprentissage supervise. 

L' analyse statistique des donnees (encore appelee «data mining ») a pris un 
essor considerable ces dernieres annees avec 1' extension du commerce electronique et 
F apparition de tres grandes bases de donnees. Le data mining vise de maniere 
generale a explorer, classifier et extraire des regies d'associations sous-jacentes au 
10 sein d'une base de donnees. II est notamment utilise pour construire des modeles de 
classification ou de prediction. La classification permet d' identifier au sein de la base 
de donnees des categories a partir de combinaisons d'attributs, puis de ranger les 
donnees en fonction de ces categories. 

De maniere generale, les valeurs (encore appelees modalites) prises par un 
15 attribut peuvent etre numeriques (par exemple un montant d 5 achats) ou symbolique 
(par exemple une categorie de consommation). On parle dans le premier cas d'attribut 
numerique et dans le second cas d'attribut symbolique. 

Certaines methodes de data mining requierent une « discretisation » des attributs 
numeriques. On entend ici par discretisation d'un attribut numerique un decoupage du 
20 domaine des valeurs prises par un attribut en un nombre fini d'intervalles. Si le 
domaine en question est une plage de valeurs continues la discretisation se traduira par 
une quantification de cette plage. Si ce domaine est deja constitue de valeurs discretes 
ordonnees, la discretisation aura pour fonction de regrouper ces valeurs en groupes de 
valeurs consecutives. 

25 La discretisation des attributs numeriques a ete largement traitee dans la 

litterature. On en trouvera par exemple une description dans l'ouvrage de Zighed et al. 
intitule « Graphes d'induction » publie chez HERMES Science Publications. 

On distingue deux types de methodes de discretisation : les methodes 
descendantes et les methodes ascendantes. Les methodes descendantes partent de 

30 Fintervalle complet a discretiser et cherche le meilleur point de coupure de Fintervalle 
en optimisant un critere predetermine. Les methodes ascendantes partent d'intervalles 
elementaires et cherchent la meilleure fusion de deux intervalles adjacents en 
optimisant un critere predetermine. Dans les deux cas, elles sont appliquees 
iterativement jusqu'a ce qu'un critere d'arret soit satisfait. 
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La presente invention conceme plus particulierement une methode de 
discretisation ascendante basee sur l'optimisation globale du critere de ^. 

Une methode de discretisation ascendante utilisant le critere du est connue 
dans la litterature sous le nom de ChiMerge. Elle est par exemple decrite dans le 
5 document intitule "Discretization of Numeric Attributes" publie dans 
PROCEEDINGS TENTH NATIONAL CONFERENCE ON ARTIFICIAL 
INTELLIGENCE, SAN JOSE, CA, USA, 12-16 JULY 1992, pages 123-128 au nom 
de KERBE R. 

On rappellera tout d'abord que le critere du permet sous certaines hypotheses 
10 de determiner le degre d'independance de deux variables aleatoires. 

Soit S un attribut source et T un attribut cible. On supposera pour fixer les idees 
que S presente cinq modalites a,b,c,d,e et T trois modalites A,B,C. Le Tableau 1 
montre le tableau de contingence des variables S et T avec les conventions suivantes : 
riij est le nombre d'individus observes pour la z* me modalite de la variable S et la 
15 f m modalite de la variable T . ny est encore appele effectif observe de la case (ij) ; 

n L est le nombre total d'individus pour la /* me modalite de la variable S . est 
encore appele effectif observe de la ligne / ; 

rij est le nombre total d'individus pour la y* me modalite de la variable T . nj est 
encore appele effectif observe de la colonne j ; 
20 N est le nombre total d'individus. 



S/T 


A 


B 


c 


Total 


a 


«n 


"12 


"13 


"i. 


b 


"21 


"22 


"23 


"2. 


c 


"31 


"32 


"33 


"3. 


d 


"41 


"42 


"43 


"4. 


e 


"51 


"52 


"53 


"5. 


Total 


".1 


".2 


".3 


N 



Tableau 1 

25 De maniere generate, on notera / et J respectivement le nombre de modalites de 

l'attribut S et le nombre de modalites de l'attribut T. 



On ctefinit Peffectif theorique ey de la case (ij) par e /y = ~^"> representant le 

nombre d'individus qui serait observe dans la case du tableau de contingence dans le 
cas de variables independantes. L'ecart a l'independance des variables S et T est 
mesure par : 

5 

Plus la valeur de est elevee, moins 1' hypo these d'independance des variables 
aleatoires S et T est probable. On parle par abus de langage de probability 
1 0 d'independance des variables. 

Plus precisement j£ est une variable aleatoire dont on peut montrer que la 
densite suit une loi dite du a (7-l).(J-l) degres de liberte. La loi du est celle 
suivie par une somme quadratique de valeurs aleatoires normales centrees. Elle a de 
fait Pexpression d'une loi y et tend vers une loi gaussienne lorsque le nombre de 
1 5 degres de liberte est eleve. 

Par exemple si 7=5 et J=3, le nombre de degres de liberte vaut 8. Si la valeur de 
calculee par (1) vaut 20, la loi du a 8 degres de liberte donne une probabilite 
d'independance de S et T de 1%. 

Ayant montre que le critere du permet de determiner le degre d'independance 
20 de deux variables aleatoires, nous presenterons maintenant la methode de 
discretisation ascendante par optimisation du critere du % que constitue la methode 
dite ChiMerge. 

Nous nous pla9ons dans le cas general d'un attribut source Sa / modalites et 
d'un attribut TaJ modalites. La methode ChiMerge considere seulement deux lignes 
25 consecutives / et i+1 du tableau de contingence. Soit q \,q 2,..,^ j la distribution locale 
(c'est-a-dire dans le contexte local des lignes consecutives i et i+7) de probabilite des 
modalites pour 1' attribut cible T. Si «/. est 1'effectif de la ligne i et n i+ i est l'effectif de 
la ligne les effectifs observes et theoriques de la ligne / s'expriment 

respectivement par n^a^ et e i} =q % p. ou les ay representent les proportions d'effectifs 

30 observes pour la ligne /. De meme, les effectifs observes et theoriques de la ligne i+7 
s'expriment respectivement par rt i+] J =a i+l J n i+] ct y =^ ! y «. +I ou les a i+ \j representent 

les proportions observees de modalites de T pour la ligne z+7. La distribution locale 
de probabilite q \,q 2,.-»9 J d^s modalites de l'attribut cible peut etre exprimee par : 
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. aijn.+Cb+\jni+\,. 

a j~ 

nr.+nr+i,. 



(2) 



Selon la methode ChiMerge, on calcule la valeur du pour les lignes / et z+1, 
5 soit, en tenant compte du fait que y = ]£/fy = ^ : 




v+i, 



7=1 * 7 



(3) 



10 



soit encore apres transformation 



4* 



(4) 



15 



20 



25 



est une variable aleatoire suivant une loi du a .7-1 degres de liberte. La 
methode ChiMerge propose de fusionner les lignes / et z+1 si : 

prob(jz? i+l9 J-l)£Prob(a 9 lQ=prh 
(5) 

ou prob(a,K) designe la probability que >oc pour la loi du j£ a K degres de 
liberies et pjh est une valeur de seuil predeterminee parametrant la methode. En 
pratique, la valeur prob(a,K) est obtenue a partir d'une table classique du dormant 
la valeur de a en fonction de prob(a,K) et de K. 

La condition (5) exprime que la probability d'independance de S et T au vu des 
deux lignes considerees est inferieure a une valeur de seuil. La fusion de lignes 
consecutives est iteree tant que la condition (5) est verifiee. La fusion de deux lignes 
entraine le regroupement de leurs modalites et la sommation de leurs effectifs. Par 
exemple dans le cas d'un attribut numerique a valeurs continues on a avant fusion : 







"/+1.2 








[Sj+lySi+21 




"r+1.2 
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Tableau 2 

et apres fusion : 



[Si,Sj+ 2 [ 













5 

Tableau 3 

Dans le document de brevet FR-A-2 825 168, est proposee une methode qui est 

un perfectionnement a la methode qui vient d'etre decrite notamment en ce qu'elle 
10 permet de s f affranchir du probleme, dans la methode ChiMerge, du choix du 

parametre prh qui ne doit pas etre trop eleve sous peine de fusionner toutes les lignes 

ni trop faible sous peine de ne fusionner aucune paire. 

Supposons le cas d'un attribut S numerique mono-dimensionnel a valeurs 

continues. Apres avoir ordonne les modalites de S, Fensemble de ces modalites peut 
15 etre decoupe en intervalles elementaires Sr^Sj+ik Nous souhaitons evaluer 

le degre d'independance de cet attribut avec un attribut cible T de modalites 7}, 

y'=l,.. ? J. On peut representer le tableau de contingence : 



S/T 


Ti 


T 2 




Tj 


Total 


Si 


"1.1 


"1.2 




"V 


«i.. 






is 


i\ 


^ 


Is 


s t 


"u 


"/.2 






"/.. 


Si+i 




"/+1.2 




ni+u 


««+i.. 


h 


& 




is 


Is 


is 


Si 


ni.\ 


"7.2 




mj 


«/.. 


Total 




",2 




n..j 


N 



20 Tableau 4 

D' apres (1) la valeur du sur 1' ensemble du tableau peut s'exprimer par : - 
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Soit encore en notant q\,q2,..,qj la distribution de probability des modalites de 
l'attribut cible et a,y les proportions d'effectifs observes pour la ligne i et en 

remarquant que e^qp^ n & =a tJ n f , et ^ 7 =^y=l • 
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ou j^est la valeur du ^ pour la ligne i. L'expression (7) signifie que le est 
1 0 additif par rapport aux lignes du tableau. 

Apres fusion de deux lignes consecutives i et *+7, la valeur du est modifiee et 
cette nouvelle valeur, notee Z%j+\) P eut done s'ecrire : 

15 Zku+\)=Z*+*Zh+v ( 10 ) 

ou A^ ;+1) est la variation du resultant de la fusion des lignes / et f+1. On a 
montre que la valeur de A^ /+1) peut etre calculee explicitement en fonction des 
proportions d'effectifs des lignes / et z+1 : 



La liste des valeurs de A^ /+1) est triee par valeurs decroissantes. Pour celle 

presentant la valeur la plus elevee, on teste l'inegalite suivante des probabilites 
25 d'independance de S et de T avant fusion et apres fusion. On teste alors si : 

^fe,, + .),(/-2)(^-l)^^2,(/-l)(y-l)) (12) 
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Si la condition (12) est verifiee, on fusionne les lignes io et /o+l. En revanche, si 
la condition (12) n'est pas verifiee, alors elle n'est verifiee pour aucun indice / par 
suite de la decroissance de prob(a > K) en fonction de a. Le processus de fusion est 
alors arrete. 

5 Si les lignes io et /'o+l ont ete fusionn^es, on met a jour la liste des valeurs 

A^ v+1) . On notera que cette mise a jour ne concerne en fait que les valeurs relatives 

aux lignes contigues aux lignes fusionnees a savoir les lignes d'indices io-l et io+2 
avant fusion (si elles existent). Le processus de fusion est itere tant que la condition 
(12) est satisfaite. 

10 La methode qui est decrite dans le document FR-A-2 825 168 conduit a une 

discretisation ad hoc du domaine des modalites, c'est-a-dire a une discretisation qui 
minimise l'independance entre l'attribut source et l'attribut cible sur 1' ensemble du 
domaine. En effet, cette methode de discretisation permet de regrouper des intervalles 
adjacents ayant des comportements de prediction similaires vis a vis de l'attribut cible, 

15 le regroupement etant arrete lorsqu'il nuit a la qualite de prediction, en d'autres termes 
lorsqu'il ne fait plus decroitre la probability d'independance des attributs. 

On obtient par fusions successives un tableau de contingence dont le nombre de 
lignes se reduit et dont les effectifs par case augmentent. 

Cette methode pose neanmoins le probleme du a un phenomene dit de "sur- 

20 apprentissage" par lequel on conclut indument a une dependance des attributs. Cela 
correspond a une generalisation abusive de caracteristiques presentes dans 
l'echantillon etudie uniquement en raison de fluctuations statistiques. Toujours dans le 
document FR-A-2 825 168, il a ete propose, pour resoudre ce probleme, d'adapter la 
methode de discretisation decrite ci-dessus de la maniere suivante : on accorde 

25 d'abord la priorite aux fusions de lignes verifiant (12) qui permettent de verifier un 
critere d'effectif minimum. Le critere d'effectif minimum pourra, par exemple, 
s'ecrire pour la ligne io: 

30 e k y >log 2 (10iV),y=l,..^ (13) 

Neanmoins, en depit des bons resultats experimentaux obtenus, il s'est avere que 
dans certains cas le critere d'effectif minimum ci-dessus utilise n'offrait pas une 
garantie suffisante. En particulier, la discretisation d'attributs independants de 




r attribut cible conduit a une discretisation en plusieurs intervalles. Cela traduit un sur- 
apprentissage, d'autant plus important que la taille de l'echantillon d'apprentissage est 
elevee. 

La methode qui est done expose dans le document de brevet FR-A-2 825 168 ne 
5 permet done pas de definir un niveau « plancher » en nombre d' intervalles 
correspondant aux attributs independants de 1'attribut cible. Le choix empirique de 
Feffectif minimum n'est done pas satisfaisant en presence d'attributs sans interet 
predictif. De plus, il ne tient pas compte du nombre et de la distribution des modalites 
cibles. 

10 Bien que Introduction precedente so it en relation avec une methode de 

discretisation d'un attribut source numerique, la presente invention n'est pas limitee a 
une telle methode. En effet, le probleme que cherche a resoudre la presente invention 
qui est le probleme de "sur-apprentissage" mentionne ci-dessus est tout a fait general 
et concerne egalement les methodes de groupage des modalites d'un attribut source 

15 lorsque lesdites modalites ne sont pas continues mais discretes. Lorsque les modalites 
sont continues, elles peuvent etre partitionnees en intervalles elementaires alors que 
lorsqu'elles sont discretes, elles sont partitionnees en groupes. II concerne egalement 
des methodes de discretisation ou de groupage de groupe d'attributs source, par 
exemple au nombre de k, qui peuvent alors etre considerees comme des methodes de 

20 discretisation ou de groupage en dimension k. Intervalles et groupes peuvent done etre 
de dimension k. Dans la suite de la description, ils seront appeles de maniere generate 
"regions". 

Par ailleurs, bien que cette introduction ou le reste de la description considere 
comme critere de fusion le critere de (essentiellement pour des commodites de 
25 description), on comprendra que la presente invention ne se limite pas a ce critere 
particulier. 

Le but de la presente invention est done de proposer un perfectionnement une 
methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
source d'une base de donnees contenant une population d'individus dans le but 
30 notamment de predire des modalites d'un attribut cible donne qui permettent d'eviter le 
phenomene de « sur-apprentissage » mentionne ci-dessus empechant la detection des 
attributs sans interet predictif. 

A cet effet, et dans le cas tout a fait general, la presente invention concerne une 
methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
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source d'une base de donnees contenant une population d'individus dans le but 
notamment de predire des modalites d'un attribut cible donne, ladite methode 
comportant les etapes suivantes de : 

a) Partition desdites modalites dudit attribut source ou dudit groupe d'attribut en 
5 regions elementaires, 

b) Evaluation pour chaque couple de regions Elementaires, d'un critere de fusion, 

c) Recherche, parmi l'ensemble des couples de regions elementaires 
fusionnables, du couple de regions elementaires dont ledit critere de fusion serait 
optimisee, 

10 e) Arret de la methode s f il n'existe pas de regions elementaires dont la fusion 

aurait pour consequence d'ameliorer ledit critere de fusion, 
f) sinon fusion et reiteration des etapes b) a e). 

En vue de resoudre le probleme mentionne ci-dessus, cette methode est 
caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) de 
15 saut direct a l'etape f) tant que la valeur d'une variable depreciation de la fusion 
consideree, ladite variable ^appreciation caracterisant le comportement dudit critere 
de fusion, n'est pas comprise dans une zone de valeurs atypiques predeterminee. 

Selon une autre caracteristique de la presente invention, ladite zone de valeurs 
atypiques predeterminee est telle que poiir un attribut cible independant dudit attribut 
20 source ou dudit groupe attributs source, la valeur de ladite variable de fusion ne soit 
pas comprise dans ladite zone avec une probability p predeterminee. 

La presente invention concerne egalement en particulier une methode de 
discretisation d'un attribut source d'une base de donnees contenant une population 
d'individus dans le but notamment de predire des modalites d f un attribut cible donne, 
25 ladite methode comportant les etapes suivantes de : 

a) Partition desdites modalites de 1' attribut source en intervalles elementaires 
deux a deux adjacents, 

b) Evaluation pour chaque couple d'intervalles elementaires adjacents dudit 
ensemble, la valeur du du tableau de contingence apres une eventuelle fusion dudit 

30 couple, 

c) Recherche, parmi Tensemble des couples d'intervalles elementaires 
fusionnables, du couple d'intervalles elementaires dont la fusion maximiserait la 
valeur de x 2 5 
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e) Arret de la methode s'il n'existe pas d'intervalles elementaires permettant de 
diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e). 

Selon une caracteristique de cette methode, elle comprend en outre une etape d) 
entre les etapes c) et e) de saut direct a l'etape f tant que la valeur A^ de la variation 
de la valeur du % avant et apres fusion est, en valeur absolue, inferieure a une valeur 
seuil predeterminee MaxA^. 

Selon une autre caracteristique de Tinvention, ladite valeur seuil predeterminee 
MaxAjtf 2 est telle que pour un attribut cible independant de l'attribut source la valeur 
de la variation de la valeur du % 2 avant et apres fusion soit toujours inferieure a 
ladite valeur MaxAx 2 avec une probabilite p predeterminee. 

Selon une autre caracteristique de Tinvention, ladite valeur seuil predeterminee 
MaxAx 2 est egale a la fonction du % 2 de degre de liberie egale au nombre J de 
modalites de l'attribut cible mo ins un pour une probabilite p a la puissance 1/NouN 
est la taille de Techantillon de la partie de la base de donnees sur laquelle est appliquee 
ladite methode de discretisation : 

Max Ax 2 =Invx 2 j_[p VN ) 

20 ou InvX 2 est la fonction qui donne la valeur du x, 2 en fonction d'une probabilite 

p donnee. 

Selon une autre caracteristique de Tinvention, ladite methode comporte une 
etape de verification que Teffectif d'un attribut source pour des modalites dans un 
intervalle donne pour chaque attribut cible est superieur a une valeur predeterminee, et 
25 si tel n f est pas le cas, mettre en oeuvre la fusion dudit intervalle avec un intervalle 
adjacent. 

La present invention concerne encore en particulier une methode de groupage 
d'un attribut de source d'une base de donnees contenant une population d'individus 
dans le but notamment de predire des modalites d'un attribut cible donne, ladite 
30 methode comportant les etapes suivantes de : 

a) Partition desdites modalites de Tattribut source en une pluralite de groupes, 

b) Evaluation pour chaque couple de groupes dudit ensemble, la valeur du X 2 du 
tableau de contingence apres une eventuelle fusion dudit couple, 
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c) Recherche, parmi Tensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de x 2 > 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
diminuer la probability d'independance, 
5 f) sinon fusion et reiteration des etapes b) a e). 

Selon une caracteristique de l'invention, cette methode comprend en outre une 
etape d) entre les etapes c) et e) de saut direct a l'etape f) tant que la valeur de la 
variation de la valeur du % 2 avant et apres fusion est, en valeur absolue, inferieure a 
une valeur seuil predeterminee MaxA;^. 
10 Selon une autre caracteristique de l'invention, ladite valeur seuil predeterminee 

MaxA^ 2 est telle que pour un attribut cible independant de l'attribut source la valeur 
de la variation de la valeur du % 2 avant et apres fusion soit toujours inferieure a 
ladite valeur MaxAtf 2 avec une probabilite p predeterminee. 

Selon une autre caracteristique de l'invention, pour etablir la valeur seuil 
15 predeterminee MaxA^f 2 , elle consiste a utiliser une table de valeurs prealablement 
calculee de valeurs de moyenne et d'ecart type en fonction du nombre de modalites de 
l'attribut source et du nombre de modalites des attributs cibles, a determiner par 
interpolation lineaire a partir de ladite table de valeurs la moyenne et l'ecart type du 
MaxA^ correspondant aux attributs a grouper, puis a determiner en utilisant la loi 
20 normale inverse la valeur seuil predeterminee MaxA^ 2 correspondant qui ne sera pas 
avec une probabilite p. 

Selon une autre caracteristique de l'invention, pour deux modalites cibles, la 
moyenne du MaxA^ est asymptotiquement proportionnelle a 21/ n ou I est le nombre 
de modalites sources. 

25 Selon une autre caracteristique de l'invention, pour deux modalites sources, la 

loi du MaxA^ est la loi du a J-l degres de liberte, J etant le nombre de modalites 
cibles. 

Selon une autre caracteristique de l'invention, ladite methode comporte une 
etape prealable de verification que Teffectif d'un attribut source pour des modalites 
30 dans un groupe donne pour chaque attribut cible est superieur a une valeur 
predeterminee, et si tel n'est pas le cas, mettre en oeuvre une fusion dudit groupe avec 
un groupe specifique, ledit groupe fusionne formant alors de nouveau ledit groupe 
specifique. 



La presente invention concerne egalement en particulier une methode de 
discretisation en dimension k d'un groupe de k attributs sources continus d'une base 
de donnees contenant une population d'individus, dans le but notamment de predire 
les modalites d'un attribut cible donne, ladite methode comportant les etapes 
5 suivantes de : 

a) Partition desdites modalites du groupe des k attributs sources en des regions 
elementaires de dimension k, 

b) Evaluation pour chaque couple de regions elementaires adjacentes, la valeur 
du du tableau de contingence apres une eventuelle fusion dudit couple, 

10 c) Recherche, parmi 1'ensemble des couples de regions fusionnables, du couple 

de regions dont la fusion maximiserait la valeur de x 2 > 

e) Arret de la methode s'il n'existe pas d'ensemble d f intervalles permettant de 
diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e). 

15 Elle est caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes 

c) et e) de saut direct a l'etape f) tant que la valeur A^ 2 de la variation de la valeur du 
X 2 avant et apres fusion est, en valeur absolue, inferieure a une valeur seuil 
predeterminee MaxA^f 2 . 

Enfin, elle concerne une methode de groupage en dimension k d'un groupe de k 

20 attributs sources discrets d'une base de donnees contenant une population d'individus, 
dans le but notamment de predire les modalites d'un attribut cible donne, ladite 
methode comportant les etapes suivantes de : 

a) Partition desdites modalites du groupe des k attributs source en une pluralite 
de groupes, 

25 b) Evaluation pour chaque couple de groupes, la valeur du £ du tableau de 

contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi 1'ensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de % 2 9 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
30 diminuer la probability d'independance, 

f) sinon reiteration des etapes b) a e). 

Elle est alors caracterisee en ce qu'elle comprend en outre une etape d) entre les 
etapes c) et e) de saut direct a l'etape f) tant que la valeur A^ 2 de la variation de la 
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valeur du x 2 avant et apres fusion est, en valeur absolue, inferieure a une valeur seuil 
predeterminee MaxA^. 

Les caracteristiques de l'invention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
5 realisation, ladite description etant faite en relation avec la Fig. unique est un 
organigramme montrant les differentes etapes mises en oeuvre par la methode de 
discretisation ou une methode de groupage selon la presente invention. 

Comme deja mentionne ci-dessus, la presente description va 5 pour des raisons de 
commodites, considerer comme : 
10 critere de fusion, le critere de j£ y 

amelioration du critere de fusion, la diminution de la probability d'independance, 
variable depreciation d'une fusion, la valeur de la variation de la valeur du 
avant et apres ladite fusion, 

zone de valeurs atypiques, les valeurs de la variation Atf 2 superieures a une 
1 5 valeur seuil predeterminee Max A%?. 

Mais on comprendra que la presente invention ne se limite pas a ces cas 
particuliers. 

Dans un premier temps, on va considerer, dans ce cadre limitatif expose ci- 
dessus, une methode de discretisation d'un attribut source telle que celle qui est decrite 
20 dans le document de brevet FR-A-2 825 168. Dans ce document, on envisage toutes 
les fusions possibles d'intervalles, on choisit la meilleure fusion, et si le critere d'arret 
n'est pas atteint, on effectue cette fusion et on continue. 

Selon ce mode de realisation de la presente invention, on va de meme etudier la 
loi du A xIm (variation de la valeur du lors de la fusion de deux intervalles i et 

25 i+1). Lors du deroulement de la methode, un grand nombre de fusions sont 
envisagees, et a chaque etape, on choisit la meilleure de toutes ces fusions en 
optimisant le critere du ^ y ou ce qui est equivalente en optimisant le critere du A^ (le 
de depart etant fixe) d'une maniere equivalent a ce qui est decrit dans le document 
mentionne ci-dessus. En plus d'une condition d'arret sur les probabilites 

30 d'independance entre attribut source et attribut cible avant et apres, la methode selon la 
presente invention prevoit de continuer les fusions tant que la valeur du A^ 0 i0+y n f est 

pas assez importante (On rappelle ici que iO et iO+l sont respectivement les indices 
des intervalles dont la valeur du A zkio+i est l a P* u s elevee). 
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En d'autres termes, on va effectuer un test sur cette valeur du A^ <0+y la plus 

elevee, ou plus exactement sa valeur absolue, en la comparant avec une valeur 
maximale notee MaxA^. Si cette valeur absolue de i0+I est inferieure a la valeur 

MaxA^, alors le processus de fusion des intervalles est force quoi qu'il arrive (en 
5 ignorant les autres conditions d'arret). 

On a represents a la Fig. 1 un organigramme d'un exemple de mise en oeuvre 
d'une methode de discretisation selon la presente invention. 

L'algorithme debute par une phase d'initialisation 100, 110, 120, 130 (les 
references sont identiques a celles qui sont utilisees dans le document de brevet 
10 FR-A-2 825 168 dans laquelle on realise une partition du domaine des modalites de 
l'attribut source en intervalles elementaires ordonnes (etape 1 00), on calcule la valeur 
du resultant ainsi que les valeurs xln P our l es I lignes du tableau de contingnece 
(etape 110), on calcule les valeurs A^ <+1) des valeurs x\i) (etape 120) et on trie ces 
valeurs A^ J+I) par valeurs decroissantes ( etape 130). 
15 On notera que la premiere valeur Aj£ /0+/ est celle qui est la plus elevee en 

valeur relative mais comme les valeurs A^ /+1) sont toujours negatives, elle est celle 

dont la valeur absolue est la plus faible. Cette valeur correspond a la fusion de deux 
intervalles adjacents d'indices iO et i0+l pour laquelle la valeur absolue de A%1 0 ,/o+/ est 
minimisee ou pour laquelle la valeur du Zw&+\) apres fusion des intervalles iO et i0+l 

20 est maximisee. 

A l'etape 200, etape nouvelle par rapport a ce qui est decrit dans le document 
FR-A-2 825 168, on initialise la valeur MaxA^. H pourrait s'agir d'une valeur 
constante prise une fois pour toute. Neanmoins, comme on le verra par la suite, cette 
valeur depend des donnees a traiter si bien qu'a Tetape 200, c'est un calcul qui est 

25 effectue. 

A l'etape 140, on teste si la condition d'effectif minimum dans chaque case du 
tableau de contingence est verifiee. II peut s'agir de verifier que chaque case du 
tableau comporte un minimum d'effectif pour que le procede de la presente invention 
puisse fonctionner correctement en se pla?ant dans les conditions d'application du test 
30 du rf. On comprendra qu'il ne s'agit pas ici, comme c'etait le cas dans le cas dans le 
document de brevet FR-A-2 825 1 68 mentionne ci-dessus, de resoudre le probleme de 
sur-apprentissage. En reprenant les notations ci-dessus, il s'agit ici de verifier que : 



riij > n min pour toutietj 
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ou rimin est le nombre d'effectif minimum. Ce nombre est par exemple de 5. 

Dans le cas ou la relation precedente est verifiee, on passe directement au test 
210. Dans la negative, on poursuit par l'etape 145. 
5 A Tetape 145, on donne priorite aux couples d'intervalles dont Tune d'entre 

elles au moins a une case qui n'a pas atteint 1'effectif minimum n min et a l'etape 165 
Ton selectionne parmi eux le couple d'intervalles (/<>, zVH) dont la valeur Azh*o+i est la 

plus elevee. Puis, on poursuit a l'etape 170. 

A l'etape 210, etape nouvelle par rapport a ce qui est decrit dans le document 
10 FR-A-2 825 168, on teste si la valeur absolue du Azhto+i la plus elevee est inferieure 

a la valeur maximale notee MaxA^ determinee a l'etape 200. Si cette valeur absolue 
de Axh ,,-o+y est inferieure a la valeur MaxA^ 2 , alors on poursuit a l'etape 160 sinon on 

passe a l'etape 1 50. 

A l'etape 150, on considere les intervalles iO et i0+l dont la valeur A zka+i est l a 

15 plus elevee et on teste si la probability d'independance eritre attribut source et attribut 
cible apres fusion de ces deux intervalles, notee /?ro6(^^ 0/0+1) ,(/-2)(J-l)), est 

inferieure ou egale a la probability d'independance entre attribut source et attribut cible 
avant fusion des deux intervalles. On teste done la relation suivante : 

20 proZ^^ 

Si tel est le cas, on selectionne (etape 160) le couple d'intervalles iO et i0+l 
comme etant a fusionner et Ton poursuit a l'etape 170. Par contre, si tel n'est pas le 
cas, le processus se termine en 190. 
25 A l'etape 170, les intervalles d'indice io et /'o+l sont fusionnes. La nouvelle 

valeur de %* io) est ensuite calculee en 180 ainsi que les nouvelles valeurs de A^ o _, /q) et 

A^ o/o+1) pour les intervalles adjacents, s'ils existent. En 185, la liste des valeurs 

A^ /+1) est mise a jour: les anciennes valeurs A^ o _ 1/q) et A^ o/o+1) sont supprimees et 

les nouvelles valeurs sont stockees. La liste des valeurs A^ /+1) est avantageusement 

30 organisee sous forme d'arbre binaire de recherche equilibre permettant de gerer les 
insertions/suppressions tout en maintenant la relation d'ordre dans la liste. Ainsi, il 
n'est pas necessaire de trier completement la liste a chaque etape. La liste des 
drapeaux est egalement mise a jour. Apres la mise a jour, le processus retourne a 
l'etape de test 140. 
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On decrit ci-dessous des modes de realisation de moyens qui permettent de 
ddterminer la valeur de MaxA^. On comprendra que ces moyens sont mis en ceuvre 
dans la boite 200 de la Fig. 1 . 

Pour ce faire, on va partir de la constatation que, pour un attribut source et un 
5 attribut cible qui sont independants, le resultat souhaite est qu'a Tissue du processus 
de discretisation, il ne reste plus qu'un seul intervalle, signifiant ainsi que 1' attribut 
source (pris isol6ment) ne contient pas d'information sur l'attribut cible. Dans ce cas, 
on peut pour une probabilite p donn6e determiner une valeur MaxA^(p) qui ne sera 
pas depassee avec une probabilite p. 
10 Ainsi, a l'etape 200, on determine MaxA^ comme etant egal a MaxA^(p), avec 

p une probabilite dont la valeur est predeterminee. 

On assure ainsi le comportement desire avec une probabilite p. Dans le cas de 
deux attributs quelconques (non necessairement independants), cette fiabilisation de la 
methode nous permet d'affirmer que si 1'algorithme produit une discretisation 
15 contenant de 1' information (au moins deux intervalles), il y a une probabilite 
superieure a p pour que l'attribut descriptif soit reellement porteur d'information sur 
l'attribut a predire. 

On a cherche a determiner theoriquement la relation qui existe entre la valeur de 
MaxA^ 2 et la probabilite p. Pour ce faire, on a etudie la loi du Delta A^ /+1) (variation 

20 de la valeur du jf lors de la fusion de deux intervalles de rang i et i+1) dans le cas de 
deux attributs independants. Dans ce cas, il faut continuer les fusions jusqu'a ce qu'il 
ne reste plus qu'un seul groupe final qui est en fait l'echantillon initial. II faut done 
que la plus grande valeur A;^ o , o+1) rencontre au cours du processus soit accepte. On va 

essayer d'estimer cette plus grande valeur au cours du deroulement du processus de 
25 discretisation, et imposer que les fusions soient continuees tant que ce seuil n'est pas 
atteint, lequel sera done la valeur recherchee de MaxA^. 

Pour deux attributs independants, la valeur du suit une loi de probabilite dont 
l'esperance et la variance sont liees de la maniere suivante : 



30 E{x 2 )=k 

Var(a2)^2k^j^\/qi-k^Ak^ 
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On a egalement pu montre (voir precedemment la relation 11) que la variation 
induite du suite a la fusion de deux intervalles d'effectifs respectifs n et n' et de 
proportions de modalites locales cibles respectivement egales a pj et p j peut s'ecrire 
sous la forme : 



— Xaprks _fusion Xavant fusion » ^ 1 p. ^~ 

7=1 ^ 



Pj est la proportion globale de modalites de Tattribut cible de rang j. 

On sait que cette variation est toujours negative, et n f est nulle que si les 
10 intervalles sont identiques ou ont exactement les memes proportions de modalites 
cibles. Ainsi, on sait que le d'un tableau de contingence ne peut que decroitre suite 
a la fusion de deux lignes du tableau de contingence. Par la suite, on redefinit le A^ 
par sa valeur absolue pour ne manipuler que des grandeurs positives. 

15 Ay*~ nri ^ (pj-p'if 

X ~n+rij-t Pj 

Le calcul de la fonction de repartition de A^ est base sur des lois binomiales 
discretes, ce qui le rend difficile a evaluer pour des valeurs importantes de n. On va 
utiliser le theoreme central limite pour approximer la loi du Atf 2 dans le cas ou n=n\ 

On fait la proposition suivante : pour un attribut source independant d'un 
20 attribut cible a J modalites, le Atf 2 resultant de la fusion de deux intervalles de meme 
effectif n et n f suit asymptomatiquement une loi du a J-l degres de libertes. 

On a pu montre que cette proposition est non seulement valable dans le cas de 
deux modalites cibles mais aussi dans les autres cas. 

On peut remarquer que la loi du Ax 1 depend du nombre de modalites de 

25 Fattribut cible, mais pas de leur distribution. 

On va maintenant evaluer la statistique des fusions de la methode selon la 
presente invention. 

On remarque d'abord que lors d'une discretisation « totale » jusqu'a un seul 
intervalle final, le nombre de fusions effectuees est environ egal a la taille N de 
30 l'echantillon. 

On va dans un premier temps evaluer experimentalement le comportement reel 
de Talgorithme et ainsi cette modelisation statistique simple de la methode de la 
presente invention. L' experimentation consiste a mettre en oeuvre la methode de 



18 



1'invention sur un echantillon comportant un attribut source continu independant de 
Tattribut cible et prenant des valeurs booleennes equi-distribuees. On effectue toutes 
les fusions possibles jusqu'a obtenir un intervalle terminal unique (les criteres d'arret 
sont rendus inactifs) et on collecte la valeur de Ax 2 de chacune de ces fusions afin 

d'en tracer la fonction de repartition. On effectue cette experimentation sur des 
echantillons de taille 100, 1000 et 10000, puis on compare les fonctions de repartion 
obtenues a la fonction de repartition theorique du 4^ 2 de deux intervalles de meme 

effectifs (loi du a un degre de liberte). 

Cette experimentation montre que la loi des Ax 2 resultant des differentes fusions 

effectuees lors de la mise en oeuvre de la methode de 1'invention ne depend pas de la 
taille de T echantillon, et est bien modelisee par la loi theorique du Ax 2 demontree ci- 

dessus pour deux intervalles de meme effectif. Selon un mode de realisation de la 
presente invention, un seuil MaxA^ pour la mise en oeuvre de la methode ci-dessus 
est tel que pour deux attributs source et cible independants, la methode converge vers 
un seul groupe terminal avec une probabilite superieure a p (p = 0,95 par exemple). II 
faut done que toutes les fusions envisagees soient acceptees, e'est-a-dire que toutes les 
valeurs de Ax 2 resultant des fusions envisagees soient inferieures au seuil MaxA^jf 2 . En 
se basant sur la modelisation precedente ou toutes les fusions sont independantes, la 
probabilite que toutes les fusions envisagees soit acceptees est egale a la probabilite 
qu'une fusion soit acceptee a la puissance N. On cherche done MaxA^ 2 tel que : 




En passant par la loi du x 2 equivalente, on a : 



pfx 2 ^ <MaxA X 2 ) 



I/N 



Ce qui peut encore s'ecrire : 



MaxAx 2 =Invx 2 ^(p 1/N ) 



ou Invx 2 est la fonction qui donne la valeur du % 2 en fonction d'une probabilite p 



donnee. 
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On a cherche a valider cette modelisation de la loi du MaxA^ 2 . Pour ce faire, on 
s'interesse cette fois non plus a la distribution des valeurs du Atf 2 au cours de la mise 
en oeuvre de la methode de l'invention, mais aux maxima de ces valeurs. Pour cela, on 
utilise des echantillons de deux attributs source et cible reellement independants 
5 comme precedemment et on collecte pour un grand nombre d'echantillons a 
discretiser la valeur maximale des resultant des fusions d'intervalles operees. On 
realise cette experimentation 1000 fois pour des echantillons de taille 100, 1000 et 
10000 et 100000 et on trace les fonctions de repartition « empiriques » de MaxA^ 
pour chacune de ces tailles d'intervalles. On trace egalement sur les memes figures les 

10 fonctions de repartition thdoriques obtenues avec la formule ci-dessus. 

On a pu remarquer que les lois empiriques et les lois theoriques correspondantes 
ont des formes tres similaires, quelle que soit la taille de l'echantillon. On a egalement 
pu remarquer que les valeurs theoriques constituent une borne superieure des valeurs 
empiriques. Par consequent, cette borne constitue une estimation assez fidele des 

15 valeurs empiriques. On notera que bien que reposant sur des bases raisonnables, son 
comportement de borne superieure n'a pu etre verifie qu'experimentalement. 

On a realise des experimentations permettant d'evaluer la presente invention 
dans son premier mode de realisation particulier. 

Dans une premiere experimentation, on a discretise un attribut source continu 

20 independant d f un attribut cible a predire, pour des tailles d'echantillon de 100, 1000, 
10000, 100000 et 100000. Pour chacune des tailles d'echantillon, on a repete cette 
experimentation 1000 fois. On compte le nombre de cas ou la discretisation aboutit a 
un unique intervalle terminal, et dans les cas contraires de discretisation multi- 
intervalles, on calcule la valeur moyenne du nombre d'intervalles. Le resultat de cette 

25 premiere experimentation est montre dans le tableau ci-dessous. 
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Discretisation 
multi-intervalles 


Taille d'echantillon 


% sans 
discretisation 


Nombre 
d'intervalles 


100 


98,6% 


2,36 


1000 


98,7% 


3,00 


10000 


98,4% 


3,00 


100000 


97,2% 


3,00 


1000000 


95,6% 


3,00 



On peut constater que la discretisation d'un attribut independant de 1'attribut 
cible aboutit dans 95% a 98% des cas a un unique intervalle terminal. On peut 
conclure, sur la base de cette experimentation, la methode selon la presente invention 
5 se comporte de maniere conforme a ce qui est attendu, au moins dans le domaine des 
taille d'echantillon variant de 100 a 1000000. 

On va montrer ci-dessous que la methode qui vient d'etre decrite en relation avec 
la Fig. 1 est non seulement applicable au probleme de la discretisation de donnees 
numeriques comme cela a 6t6 montre ci-dessus mais egalement au probleme du 
10 groupage des modalites d'attributs symboliques. 

On rappelle que le probleme du groupage des modalites d'un attribut 
symbolique consiste a partitionner Pensemble des valeurs de 1'attribut en un nombre 
fini de groupes identifies chacun par un code. Ainsi, la plupart des modeles predictifs 
a base d'arbre de decision utilisent une methode de groupage pour traiter les attributs 
15 symboliques, de fa9on a lutter contre la fragmentation des donnees. 

La gestion des modalites d'une variable symbolique est un probleme plus 
general dont les enjeux depassent largement le cadre des arbres de decision. Par 
exemple, les methodes a base de reseaux de neurones n'utilisant que des donnees 
numeriques ont souvent recours a un codage disjonctif complet des variables 
20 symboliques. Dans le cas ou les modalites sont trop nombreuses, il est necessaire de 
proc^der en prealable a des groupages de modalites. Ce probleme se rencontre 
egalement dans le cas des reseaux bayesiens. 

L'enjeu du regroupement des modalites est de trouver une partition realisant un 
compromis entre qualite informationnelle (groupes homogenes vis-a-vis de 1'attribut 
25 source a predire) et qualite statistique (effectifs suffisant pour assurer une 
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generalisation efficace). Ainsi, le cas extreme d'un attribut ayant autant de modalites 
que d'individus est inutilisable : tout regroupement des modalites correspond a un 
apprentissage « par coeur » inutilisable en generalisation. Dans 1' autre cas extreme 
d'un attribut possedant une seule modalite, la capacite en generalisation est optimale, 
5 mais Pattribut ne possede aucune information permettant de separer les classes a 
predire. II s'agit alors de trouver un critere mathematique permettant d'evaluer et de 
comparer des partitions de taille differentes, et un algorithme conduisant trouver la 
meilleure partition. 

La methode groupage selon la presente invention utilise la valeur globale du j£ 

10 du tableau de contingence entre attribut discretise (attribut source) et attribut a predire 
(attribut cible), et cherche a minimiser la probabilite P d'independance 
correspondante. La methode de groupage commence par le partionnement des 
modalites initiales puis evalue toutes les fusions possibles et choisit enfin celle qui 
maximise le critere du applique a la nouvelle partition formee. La methode s'arrete 

15 automatiquement des que la probabilite d'independance P ne decroit plus. Cette partie 
de la methode est identique a celle qui est decrite dans le document FR-A-2 825 168. 
De plus, la methode de groupage selon la presente invention est similaire a la methode 
de discretisation decrite ci-dessus en y apportant le meme perfectionnement. Elle 
permet un controle reel de la qualite predictive d'un groupage de modalites. 

20 A l'instar de la methode de discretisation decrite ci-dessus, elle repose sur 1' etude 

du comportement statistique de 1' algorithme en presence d'un attribut symbolique 
independant de 1' attribut a predire. On a done etudie la statistique de la variation 
maximale du critere du lors du deroulement complet de l'algorithme de groupage. 
Cette etude a montre que cette valeur maximale MaxA^ ne depend que du nombre de 

25 modalites des attributs sources et cibles et est insensible a la repartition de ces 
modalites ainsi qu'a la taille de l'echantillon d' apprentissage. Suite a la modelisation 
de la statistique du MaxA^, on a alors modifie l'algorithme de groupage initial en le 
contraignant a accepter toute fusion de modalites entrainant une variation du £ 
inferieure a la variation theorique maximale calculee MaxA^. 

30 La presente invention permet de garantir, d'une part, que les groupages de 

modalite d'un attribut independant de Pattribut a predire aboutissent a un seul groupe 
terminal et, d'autre part, que les groupages aboutissant a plusieurs groupes 
correspondent a des attributs ayant un interet predictif reel. Des experimentations 
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confirment Tint6ret de cette version robuste de Talgorithme et montrent de bonnes 
performances predictives pour les groupages obtenus. 

La methode de discretisation qui a ete decrite precedemment se generalise au 
groupage en rempla^ant les intervalles par des groupes de modalites et en remplafant 
5 la recherche de la meilleure fusion d' intervalles adjacents par la recherche de la 
meilleure fusion de groupes quelconques. 

La contrainte d'effectif minimum se traduit ici par un effectif minimum par 
modalite. Lors d'un pre-traitement, toute modalite source n'atteignant pas cet effectif 
minimum sera groupee inconditionnellement en une modalite speciale autre prevue a 
10 cet effet. Ainsi, il ne reste alors que des modalites qui satisfont la contrainte d'effectif 
minimum en entree de la methode de groupage. 

De fa<jon analogue a la methode de discretisation precedemment decrite, il est 
possible de ramener l'algorithme de groupage a une complexity algorithmique de 
Nlog(N)+J 2 log(J) ou N est le nombre d'individus de Pechantillon et J est le nombre de 
15 modalites de l'attribut source (une fois la modalite speciale autre traitee). 

L'organigramme de la methode de groupage selon la presente invention est 
identique a celui de la methode de discretisation decrite ci-dessus en relation avec la 
Fig. 2. 

On va maintenant cherche a exprimer la valeur du MaxA^ dans le cadre d'une 
20 methode de groupage. 

Lors de la mise en ceuvre de la methode de groupage selon l'invention telle 
qu'illustree a la Fig. 2, on envisage toutes les fusions possibles de lignes du tableau de 
contingence et on choisit celle qui maximise la valeur du du tableau de contingence 
apres fusion des lignes, c'est-a-dire celle qui maximise la variation Atf 2 au cours de la 
25 fusion. 

On considere que la valeur MaxA^ est la valeur maximale du Atf 2 qui sera 
atteinte lors de la mise en oeuvre de la methode selon la presente invention, valeur 
obtenue jusqu'a l'obtention d'un unique groupe de modalites terminal. 

Ainsi, le principe de base de la methode de la presente invention est de constater 
30 que pour un attribut source independant de l'attribut a predire, on observera 
naturellement des variations du Atf 2 et done un MaxA^ du au hasard de l'echantillon. 
Mais en definitive, le groupage des modalites d'un attribut independant de Pattribut a 
predire devrait aboutir a un seul groupe terminal. Par consequent, on impose que toute 
fusion de groupe entrainant une variation du j£ inferieure aux variations pouvant etre 
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dues au hasard (c'est-a-dire inferieure au MaxA^) soit automatiquement acceptee. On 
assure ainsi egalement que tout groupage aboutissant a au moins deux groupes 
terminaux correspond a un attribut non independant de l'attribut a predire. 

On va maitenant cherche a etablir la statistique du MaxA^ dans le cas du 
5 traitement du groupage de modalites d'attributs. 

Soit N la taille de l'echantillon, I le nombre de modalites sources et J le nombre 
de modalites cibles. 

On notera que, pour des raisons deja expliquees ci-dessus, Ton se place dans le 
cas ou la contrainte d'effectif minimum de 5 par cellule du tableau de contingence est 
10 respectee, de fa<?on a pouvoir utiliser valablement la statistique du 

A priori, la statistique du MaxAtf* depend de la taille de l'echantillon N, du 
nombre de modalites de l'attribut source I, du nombre de modalites de l'attribut J mais 
aussi de la repartition des frequences des modalites sources et de la repartition des 
frequences des modalites cibles. 
1 5 En fait, on a pu demontrer que la loi du MaxA^ ne depend en realite que du 

nombre de modalites de l'attribut source I et de l'attribut cible J. On a egalement pu 
demontrer que pour 2 modalites sources, la loi du MaxA^ 2 est la loi du j£ a J-l degres 
de liberies. Sa moyenne est done J-L 

De plus, pour 2 modalites cibles, on a encore pu demontre que la moyenne du 
20 MaxA^ est asymptotiquement proportionnelle a 21 /n . 

On a decrit jusqu'ici une methode de discretisation d'un attribut source dont les 
modalites continues sont mono-dimensionnelles mais on comprendra que la presente 
invention est egalement applicable a une methode de discretisation d'un attribut source 
dont les modalites egalement continues sont de dimensions k. 
25 Dans ce cas, l'attribut source est un attribut source numerique de dimensions k 

forme par k attributs sources mono-dimensionnels. Chaque individu de la population 
peut etre represente par un point de l'espace desdits attributs de dimension k. 

Cette methode de discretisation en dimension k d'un groupe de k attributs 
sources consiste done a faire une partition des modalites du groupe des k attributs 
30 sources en des regions elementaires de dimension k et une evaluation pour chaque 
couple de regions elementaires adjacentes, la valeur du du tableau de contingence 
apres une eventuelle fusion dudit couple. 

On notera que les regions elementaires en question sont par exemple des cellules 
de Vorono'f de l'espace des attributs sources. Pour trouver deux regions elementaires 
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adjacentes, on construit le graphe de Delaunay associe aux cellules de VoronoT et Ton 
elimine de ce graphe tout arc joignant deux cellules voisines en passant par une 
troisieme, les couples de regions adjacentes 6tant donnes par les arcs du graphe de 
Delaunay apres l'etape d'elimination. 
5 On pourra utilement se reporter au document de brevet FR-A-2 825 168 pour des 

details concernant ces etapes de partition et devaluation. 

Ensuite, on effectue la fusion, parmi l'ensemble des couples de regions 
fusionnables, du couple de regions dont la fusion maximise la valeur de et on arrete 
la methode lorsqu'il n'existe pas d'ensemble d'intervalles permettant de diminuer la 
10 probability d'independance. Si tel n'est pas le cas, on reitere les etapes precedentes. 

Selon une caracteristique de la presente invention, la methode de discretisation 
en dimension k d'un groupe de k attributs sources est caracterisee en ce qu'elle 
comprend en outre une etape de saut direct a partir de d'etape de fusion apres l'etape 
d'arret tant que la valeur de la variation de la valeur du % 2 avant et apres fusion est, 
15 en valeur absolue, inferieure a une valeur seuil predeterminee MaxA^ 2 . 

De meme, la methode qui vient d'etre decrite est egalement applicable au 
groupage en dimension k d'un groupe de k attributs sources discrets. Comme 
precedemment, elle consiste alors a faire une partition desdites modalites du groupe 
des k attributs source en une pluralite de groupes et une evaluation pour chaque couple 
20 de groupes, la valeur du du tableau de contingence apres une eventuelle fusion 
dudit couple. 

Elle consiste a faire la fusion, parmi l'ensemble des couples de groupes 
fusionnables, du couple de groupes dont la fusion maximise la valeur de x 2 et a arreter 
la methode s'il n'existe pas de fusions de groupes permettant de diminuer la probability 
25 d'independance, sinon on reitere les etapes precedentes. 

Cette methode de groupage comprend en outre une etape de saut direct a l'etape 
de reiteration tant que la valeur de la variation de la valeur du % 2 avant et apres 
fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee MaxA^. 

On rappelle que de maniere tout a fait general, la presente invention concerne 
30 une methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
source d'une base de donn^es contenant une population d'individus dans le but 
notamment de predire des modalites d'un attribut cible donne. 

Si Ton se refere a la Fig. unique, les etapes de partition desdites modalites dudit 
attribut source ou dudit groupe d'attribut en regions elementaires, devaluation pour 



25 



chaque couple de regions elementaires, de la valeur apres une eventuelle fusion dudit 
couple d'un critere de fusion, et de recherche, parmi 1'ensemble des couples de regions 
elementaires fusionnables, du couple de regions elementaires dont le critere de fusion 
serait optimisee correspondant aux etapes 100, 110, 120 et 130. 
5 L'etape d'arret de la methode s'il n'existe pas de regions elementaires dont la 

fusion aurait pour consequence d'ameliorer le critere de fusion est l'etape 150. 

L'etape de fusion et reiteration est representee par la boucle incluant 160, 170, 
180 et 185. 

L'etape de saut direct tant que la valeur de la variable depreciation de la fusion 
10 n'est pas comprise dans une zone de valeurs atypiques predeterminee est l'etape 210. 

Enfm, l'etape de determination de la zone de valeurs atypiques predeterminee est 
l'etape 200. 
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REVENDICATIONS 
1) Methode de discr6tisation/groupage d'un attribut source ou d f un groupe 
attributs source d'une base de donnSes contenant une population d'individus dans le 
but notamment de predire des modalites d'un attribut cible donne, ladite methode 
5 comportant les etapes suivantes de : 

a) Partition desdites modalites dudit attribut source ou dudit groupe d'attribut en 
regions elementaires, 

b) Evaluation pour chaque couple de regions elementaires, d'un critere de fusion, 

c) Recherche, parmi l'ensemble des couples de regions elementaires 
10 fusionnables, du couple de regions elementaires dont le critere de fusion serait 

optimisee, 

e) Arret de la methode s'il n'existe pas de regions elementaires dont la fusion 
aurait pour consequence d'ameliorer ledit critere de fusion, 

f) sinon fusion et reiteration des etapes b) a e), 

1 5 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a l'etape f) tant que la valeur d'une variable d'appreciation de la fusion 
consideree, ladite variable d'appreciation caracterisant le comportement dudit critere 
de fusion, n'est pas comprise dans une zone de valeurs atypiques predetermines 

20 2) Methode de discretisation/groupage d'un attribut source ou d'un groupe 

attributs source selon la revendication 1, caracterisee en ce que ladite zone de valeurs 
atypiques predeterminee est telle que pour un attribut cible independant dudit attribut 
source ou dudit groupe attributs source, la valeur de ladite variable d'appreciation de la 
fusion consideree ne soit pas comprise dans ladite zone avec une probability p 

25 predeterminee. 

3) Methode de discretisation d'un attribut source d'une base de donnees 
contenant une population d'individus dans le but notamment de predire des modalites 
d'un attribut cible donne, ladite methode comportant les etapes suivantes de : 
30 a) Partition desdites modalites de 1' attribut source en intervalles elementaires 

deux a deux adjacents, 

b) Evaluation pour chaque couple d'intervalles elementaires adjacents dudit 
ensemble, la valeur du du tableau de contingence apres une eventuelle fusion dudit 
couple, 
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c) Recherche, parmi l'ensemble des couples d'intervalles elementaires 
fusionnables, du couple d'intervalles elementaires dont la fusion maximiserait la 
valeur de x 2 , 

e) Arret de la methode s'il n'existe pas d'intervalles elementaires permettant de 
5 diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 
de saut direct a l'etape f tant que la valeur de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
10 MaxA/. 

4) Methode de discretisation selon la revendication3, caracterisee en ce que 
ladite valeur seuil predeterminee MaxA^ est telle que pour un attribut cible 
independant de l'attribut source la valeur Arf de la variation de la valeur du x 2 avant et 

15 apres fusion soit toujours inferieure a ladite valeur MaxA^ avec une probability p 
predeterminee. 

5) Methode de discretisation selon la revendication 4, caracterisee en ce que 
ladite valeur seuil predeterminee MaxAtf 2 est egale a la fonction du x 2 de degre de 

20 liberty egale au nombre J de modalites de l'attribut cible moins un pour une 
probability p a la puissance 1/N ouN est la taille de l'echantillon de la partie de la base 
de donnees sur laquelle est appliquee ladite methode de discretisation : 

MaxAx 2 =Inv% 2 jjj} 1 **) 

25 

ou Invy? est la fonction qui donne la valeur du x 2 en fonction d'une probability 
p donnee. 

6) Methode de discretisation d'un attribut source selon une des revendications 3 
30 a 5, caracterisee en ce qu'elle comporte une etape de verification que l'effectif d'un 

attribut source pour des modalites dans un intervalle donne pour chaque attribut cible 
est superieur a une valeur predeterminee, et si tel n'est pas le cas, mettre en oeuvre la 
fusion dudit intervalle avec un intervalle adjacent. 



7) Methode de groupage d'un attribut de source d'une base de donnees 
contenant une population d'individus dans le but notamment de predire des modalites 
d'un attribut cible donne, ladite methode comportant les etapes suivantes de : 

a) Partition desdites modalites de l'attribut source en une plurality de groupes, 
5 b) Evaluation pour chaque couple de groupes dudit ensemble, la valeur du £ du 

tableau de contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi l'ensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de % 2 , 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
1 0 diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 
de saut direct a l'etape f) tant que la valeur Atf 2 de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
1 5 MaxA^. 

8) Methode de groupage selon la revendication 7, caracterisee en ce que ladite 
valeur seuil predeterminee MaxA;^ est telle que pour un attribut cible independant de 
l'attribut source la valeur A%* de la variation de la valeur du % 2 avant et apres fusion 

20 soit toujours inferieure a ladite valeur MaxAtf 2 avec une probability p predeterminee. 

9) Methode de groupage selon la revendication 7, caracterisee en ce que pour 
etablir la valeur seuil predeterminee MaxA;^, elle consiste a utiliser une table de 
valeurs prealablement calculee de valeurs de moyenne et d'ecart type en fonction du 

25 nombre de modalites de l'attribut source et du nombre de modalites des attributs 
cibles, a determiner par interpolation lineaire a partir de ladite table de valeurs la 
moyenne et Tecart type du MaxA^ 2 correspondant aux attributs a grouper, puis a 
determiner en utilisant la loi normale inverse la valeur seuil predeterminee MaxA^ 
correspondant qui ne sera pas avec une probability p. 

30 

10) Methode de groupage selon la revendication 9, caracterisee en ce que pour 
deux modalites cibles, la moyenne du MaxA^ est asymptotiquement proportionnelle 
a 21/ n ou I est le nombre de modalites sources. 
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1 1) Methode de groupage selon la revendication 10, caract&isee en ce que pour 
deux modalites sources, la loi du MaxAtf 2 est la loi du a J-l degres de liberie, J 
6tant le nombre de modalites cibles. 

5 12) Methode de groupage d'un attribut source selon une des revendications 

precedentes 7 a 11, caract^risee en ce qu'elle comporte une etape prealable de 
verification que l'effectif d'un attribut source pour des modalites dans un groupe donne 
pour chaque attribut cible est superieur a une valeur pr^determinee, et si tel n'est pas le 
cas, mettre en oeuvre une fusion dudit groupe avec un groupe specifique, ledit groupe 
10 fusionne formant alors de nouveau ledit groupe specifique. 

13) Methode de discretisation en dimension k d'un groupe de k attributs sources 
continus d'une base de donnees contenant une population d'individus, dans le but 
notamment de predire les modalites d'un attribut cible donne, ladite methode 
1 5 comportant les Stapes suivantes de : 

a) Partition desdites modalites du groupe des k attributs sources en des regions 
elementaires de dimension k, 

b) Evaluation pour chaque couple de regions elementaires adjacentes, la valeur 
du £ du tableau de contingence apres une eventuelle fusion dudit couple, 

20 c) Recherche, parmi l'ensemble des couples de regions fusionnables, du couple 

de regions dont la fusion maximiserait la valeur de x 2 , 

e) Arret de la methode s'il n'existe pas d'ensemble d'intervalles permettant de 
diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

25 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a Tetape f) tant que la valeur Atf 2 de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
MaxA^. 

30 14) Methode de groupage en dimension k d'un groupe de k attributs sources 

discrets d'une base de donnees contenant une population d'individus, dans le but 
notamment de predire les modalites d'un attribut cible donne, ladite methode 
comportant les etapes suivantes de : 
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a) Partition desdites modalites du groupe des k attributs source en une pluralite 
de groupes, 

b) Evaluation pour chaque couple de groupes, la valeur du 3? du tableau de 
contingence apres une eventuelle fusion dudit couple, 

5 c) Recherche, parmi Tensemble des couples de groupes fusionnables, du couple 

de groupes dont la fusion maximiserait la valeur de x 2 > 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
diminuer la probability d'independance, 

f) sinon reiteration des etapes b) a e), 

1 0 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a l'etape f) tant que la valeur Atf 2 de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
MaxA^ 2 . 



ABREGE DESCRIPTIF 

M&hode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
source d'une base de donnees 

La presente invention concerne une methode de discretisation/groupage d'un 
attribut source ou d'un groupe attributs source d'une base de donnees contenant une 
population d'individus dans le but notamment de predire des modalites d'un attribut 
cible donne. Ladite methode comporte les 6tapes suivantes de : 

a) Partition desdites modalites dudit attribut source ou dudit groupe d'attribut en 
regions elementaires, 

b) Evaluation pour chaque couple de regions elementaires, d'un critere de fusion, 

c) Recherche, parmi l'ensemble des couples de regions elementaires 
fiisionnables, du couple de regions elementaires dont le critere de fusion serait 
optimisee, 

e) Arret de la methode s'il n'existe pas de regions elementaires dont la fusion 
aurait pour consequence d'ameliorer ledit critere de fusion, 

f) sinon fusion et reiteration des etapes b) a e). 

Selon la presente invention, elle comprend en outre une etape d) entre les etapes 
c) et e) de saut direct a l'etape f) tant que la valeur d'une variable depreciation de la 
fusion consideree n'est pas comprise dans une zone de valeurs atypiques 
predeterminee. 



Fig. unique 





Fig, unique 



BEST AVAILABLE COPY 



